智能论文笔记

Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides

Dong Won Lee , Chaitanya Ahuja , Paul Pu Liang , Sanika Natu , Louis-Philippe Morency

分类：人工智能 | 自然语言处理 | 计算机视觉 | 机器学习

2022-08-17

仔细构建和介绍了一系列包含文本和数字的页面，这些页面是一系列页面，并仔细构建并呈现，以便将知识最佳地转移给学生。先前在多媒体和心理学方面的研究将演讲的有效性归因于其多模式的性质。为了开发AI的一步，以帮助学生学习作为智能教师助理，我们将多模式演讲演示文稿数据集作为大规模的基准测试，以测试机器学习模型在多模式了解教育内容的能力。我们的数据集包含一个对齐的幻灯片和口语，用于180多个小时的视频和9000多个幻灯片，其中10位来自各种主题的讲师（例如，计算机科学，牙科，生物学）。我们介绍了两项研究任务，它们被设计为对AI代理商的垫脚石，这些阶梯可以解释（自动为演讲演示字幕），并说明（综合视觉图形以伴随口语解释）教育内容。我们提供手动注释，以帮助执行这两项研究任务并评估其最新模型。比较基线和人类学生的表现，我们发现当前模型在（1）幻灯片和口语文本之间的较弱的跨模式对齐中挣扎，（2）学习新颖的视觉介质，（3）技术语言和（4）（4）远程序列。为了解决这个问题，我们还引入了Polyvilt，这是一种多模式变压器，经过多种模式的学习损失，比目前的方法更有效。最后，我们阐明了对教育演示的多模式理解的挑战和机遇。

translated by 谷歌翻译